Transformer 位置编码

绝对位置编码

绝对位置编码，也即将位置向量作为新的一维输入，在输入的第 $k$ 向量 $x_{k}$ 中加入位置向量 $p_{k}$ 变为 $x_{k} + p_{k}$

训练式

很显然，绝对位置编码的一个最朴素方案是不特意去设计什么，而是直接将位置编码当作可训练参数，比如最大长度为512，编码维度为768，那么就初始化一个 $12 \times 768$ 的矩阵作为位置向量，让它随着训练过程更新。现在的BERT、GPT等模型所用的就是这种位置编码。
同时因为《层次分解位置编码，让BERT可以处理超长文本》，层次分解让绝对位置编码的外推性得到了fix：